﻿  STRUCTURILE LATENTE ALE DISTANŢEI SOCIALE CORNELIA RADA copul acestui articol este să aducă argumente solide pentru utilizarea analizei claselor latente ca un instrument alternativ S de investigare în ştiinţele sociale şi comportamentale. Pornesc de la prezentarea tehnică a metodei de analiză prin clase latente, limitată la atât cât este necesar pentru înţelegerea elementelor sale de bază, continuând apoi cu 1 un exemplu de cercetare empirică. Cu ajutorul programului Latent Gold mi-am propus să identific patternuri ale distanţei sociale manifestate prin dorinţa de a nu avea ca vecini 11 categorii de persoane stigmatizate social, cum ar fi dependenţii de droguri, imigranţii, romii, alcoolicii, foşti condamnaţi etc. Datele utilizate au fost puse la dispoziţie de Fundaţia Soroş România şi fac parte din Barometrului de Opinie, Octombrie 2007. Setul iniţial de 11 itemi a fost despărţit în două subseturi, folosind o formă de analiză factorială cu componente latente de tip continuu, care apoi au fost explorate utilizând analiza de clusteri prin clase latente. Pentru primul subset de variabile a fost identificat ca model optim un model cu patru clase latente, iar pentru al doilea subset modelul optim identificat a fost unul cu trei clase latente. În clusterele intolerant şi distant predomină femeile şi persoanele din mediul rural. Totuşi, femeile acceptă mai uşor vecini infectaţi cu HIV, iar persoanele din mediul rural sunt mai tolerante cu romii. În clusterele tolerant şi tolerant cu romii predomină bărbaţii. În urban, toleranţa la vecinii infectaţi cu HIV este mult mai mare. Persoanele cu un nivel de educaţie ridicat sunt cu precădere în clusterul HIV tolerant, dar distante faţă de persoanele dependente de droguri sau alcool. Cuvinte-cheie: clase latente, analiză factorială, distanţă socială. INTRODUCERE Analiza claselor latente s-a desprins din analiza structurilor latente, metodă menţionată pentru prima dată într-o vastă lucrare de psihologie socială, numită American Soldier: Studies in Social Psychology in WW II, apărută în patru volume între 1949 şi 1950 (Henry, 1999). Structurile latente, descrise de Lazarsfeld în volumul 4, intitulat Measurement and Prediction, au la bază variabile latente a căror natură a fost conceptualizată de sociologi ca fiind una discretă, în clase. Din Adresa de contact a autorului: Cornelia Rada, Institutul de Antropologie „Francisc I. Rainer”, Bd. Eroii Sanitari, Nr. 8, O.P. 35, C.P. 13, Sector 5, Cod 050474, Bucureşti, România, e-mail: corneliarada@yahoo.com. 1 Latent Gold este un program statistic specializat pentru analiza claselor latente produs de Statistical Innovations Inc. Versiunea 4.5 demo precum şi documentaţia tehnică necesară utilizării programului este disponibilă pe site-ul http://www.statisticalinnovations.com. CALITATEA VIEŢII, XXII, nr. 1, 2011, p. 60–82 2 STRUCTURILE LATENTE ALE DISTANŢEI SOCIALE 61 potrivă, psihologii care operau cu noţiuni cum ar fi abilitatea, sensibilitatea sau inteligenţa au considerat latenţa ca având o natură continuă, sub forma unor trăsături sau caracteristici individuale numite traits. Statisticienii au avut abordări ambivalente, formalizând matematic ambele tipuri de modele. Analiza claselor latente, care a cunoscut o dezvoltare spectaculoasă în ultimii 10–15 ani, aproape că a devenit un instrument standard de analiză în cercetarea sociologică, biomedicală, psihologie sau în cercetarea de piaţă. Pentru prima dată introdusă de Lazarsfeld şi Henry în 1968 (Dayton, 1998) metoda a fost folosită iniţial pentru a explica variabilele latente atitudinale în sondaje cu itemi dihotomici binari. Ulterior, a fost extinsă de Goodman în 1974 pentru variabile nominale (Goodman, 2002). În prezent, metoda are un domeniu de aplicare vast pentru variabile de toate tipurile şi pentru combinaţii ale acestora. Formele de aplicare au fost de asemenea diversificate la analizele factoriale pentru variabile nominale, regresii în populaţii heterogene (mixturi), dependenţe locale, lanţuri latente Markov etc. Analiza claselor latente (latent class analysis) este o tehnică multivariată exploratorie de identificare a segmentelor, clusterilor sau, mai general spus, a claselor latente, care sunt categorii ale unei variabile latente discrete de tip categorial. Variabilele latente sunt variabile neobservate, teoretice, conceptuale, care ar putea explica gruparea în clase a modurilor de răspuns la un anumit stimul, a atitudinilor şi percepţiilor. Ele structurează cazurile în raport cu un set de variabile observate, numite variabile manifest sau indicator. Astfel, patternurile de răspuns ale subiecţilor la un set de itemi sunt condiţionate de apartenenţa subiecţilor la una sau alta din clasele unei variabile latente, de control, care nu este prezentă explicit în setul de itemi analizaţi. Măsurătorile în ştiinţele sociale sunt date observate, însă conceptele pe care acestea le măsoară, cum sunt empatia, toleranţa, abilitatea, nu sunt. Variabilele, sau factorii latenţi şi respectiv clasele latente sunt constructe teoretice, care pot căpăta un nume şi un sens explicit după ce au fost identificate pe baza modelului analizat. Variabilele-manifest sunt măsurătorile de bază ale studiului empiric. Acceptarea ipotezei că variabilele latente există şi că sunt într-o numită relaţie cu variabilele- manifest permite cercetătorului să transceandă datele şi să aibă un discurs de teoretician şi nu unul de statistician. Din punct de vedere tehnic, analiza claselor latente are, în principal, trei domenii de aplicabilitate, care decurg din cele trei modele teoretice propuse: analiza de clusteri prin clase latente (Latent Class Cluster Analysis), analiza factorială discretă prin clase latente (Latent Class Dfactor) şi analiza de regresie în clase latente (Latent Class Regression Analysis). Toate aceste modele sunt în mare măsură similare modelelor şi analizelor tradiţionale: analiza de clusteri, analiza factorială şi respectiv, analiza de regresie. Avantajul modelelor în clase latente este că restricţiile din ipotezele analizelor tradiţionale sunt mult relaxate. De exemplu, utilizarea în analiza statistică a variabilelor de tip nominal sau ordinal nu mai este o problemă, acest lucru fiind valabil chiar şi pentru tipurile de analize, care, din punct de vedere 62 CORNELIA RADA 3 tehnic, sunt aplicabile numai în cazul variabilelor de tip interval, aşa cum ar fi analiza factorială sau analiza de clusteri. Acesta face din analiza de clase latente, susţinută de un program de calcul flexibil, un instrument de cercetare redutabil. Scopul acestui articol este ca, pornind de la o prezentare tehnică a metodei, limitată la atât cât este necesar pentru înţelegerea elementelor de bază, şi apoi continuând cu o exemplificare practică pe un set de date reale, să aducem un argument suplimentar în utilizarea claselor latente ca instrument de cercetare. PRECIZĂRI CONCEPTUALE Metoda de analiză de clusteri prin clase latente Analiza de clusteri clasică organizează un set de itemi în grupuri (clusteri), în aşa fel încât gradul de similaritate este maximizat în interiorul grupurilor şi minimizat între grupuri. Grupurile se formează pe baza unor distanţe definite (Euclidiană, Mahalanobis, city block etc.) între itemi care trebuie să fie de tip interval. Analiza de clusteri prin clase latente poate determina dacă asocierea dintre un set de variabile manifest de tip categorial A, B, C, D … etc. poate fi explicată de o variabilă latentă neobservată, discretizată în segmente (clase, clusteri sau grupuri), notată convenţional X, care are un număr de T categorii. Fără să afectez generalitatea modelului, pentru mai multă claritate, fac o prezentare a modelului de clusteri limitată pentru patru variabile-manifest (sau indicator). În forma sa probabilistică, ecuaţia modelului poate fi exprimată prin (Magidson şi Vermunt, 2004): ||| |XAXBXCXDX π=πππππ ijklt t it jt kt lt unde X π este probabilitatea de apartenenţă la clasa (clusterul) t = 1, 2, …, T al • t variabilei X; |AX • π reprezintă probabilitatea condiţionată de a răspunde în categoria i = 1, it 2, …, I la itemul A pentru clasa t; |DX |BX|BX • ,π,ππ sunt probabilităţile corespunzătoare pentru itemii B, C şi lt jtjt D, iar j = 1, 2, …, J; k = 1, 2, …, K şi l = 1, 2, …, L; • π este probabilitatea obţinerii unui răspuns cu profilul {i, j, k, l} la cei ijklt patru itemi, în clusterul t. A, B, C şi Modelul are ca ipoteză independenţa locală a variabilelor-manifest D în fiecare cluster. Aceasta însemnă că nu există relaţii de asociere între oricare dintre cele patru variabile în fiecare din cei T clusteri. Din punct de vedere statistic, 2 (Pearson chi pătrat) independenţa locală presupune ca valorile testului Pearson χ împărţite la numărul gradelor de libertate, cunoscute ca reziduale bivariate, să nu 4 STRUCTURILE LATENTE ALE DISTANŢEI SOCIALE 63 2 difere semnificativ de valoarea 1. Valorile Pearson χ se calculează din tabelele de contingenţă bivariate, pe baza frecvenţelor observate şi estimate corespunzător fiecărui model estimat. Pentru a face modelul identificabil se impun câteva restricţii logice. În cazul prezentat mai sus, cu patru variabile manifest şi o variabilă latentă, acestea se exprimă prin următoarele ecuaţii: ||| |XAXBXCXDX 1.0π=π=π=π=π= tit jt kt lt ∑∑∑∑∑ ti j k l Bayes, se poate determina apoi probabilitatea posterioară Cu ajutorul teoremei cluster, cunoscând patternul de răspuns (i, j, k, l): de apartenenţă la un anumit ABCDX π ijklt | XABCD π= , t = 1, 2, …, T ijklt T ABCDX π ijklt ∑ t În Latent Gold, fiecare caz este alocat clusterului pentru care probabilitatea este maximă. O altă reprezentare cunoscută a modelului este forma sa log-liniară de parametrizare, în care notăm cu f frecvenţa corespunzătoare într-un tabel de ijklt A, B, C, D şi X: contingenţă în care am introdus toate cele cinci variabile ||| |XABCDAXBXCXDX ()Ln f=λ+λ +λ +λ +λ +λ +λ +λ +λ +λ ijklt t i j k l it jt kt lt = 1, 2, …, I; j = 1, 2, …, J; k = 1, 2, …, K; l = 1, 2, …, L şi t = 1, 2, …, T. i XABCD Modelul presupune, în acest caz, cinci efecte principale , , , , ,λλλλλ tijkl ||| |AX BX CX DX patru interacţiuni între variabila latentă şi variabilele manifest ,,,λλλλ it jt kt lt şi o constantă λ. Ipoteza de independenţă locală mutuală dintre variabilele-manifest A, B, C şi D este asumată prin absenţa efectelor de interacţiune dintre variabile. Pentru identificarea parametrilor este necesar, fără a pierde din generalitatea soluţiei, un sistem de restricţionare a parametrilor, cum ar fi „dummy coding” sau „effect coding”. Ca exemplu, în „dummy coding” se impun următoarele restricţii: ||| |AX BX CX DX 0;λ=λ =λ =λ = pentru t = 2, 3, …, T; 1111tttt XABCD 0;λ =λ=λ=λ=λ= 11111 ||| |AX BX CX DX 0λ=λ=λ=λ= pentru i = 1,2, …, I; j = 1, 2, …, J; k = 1, 2, …, K; 1111ijkl = 1, 2, …, L. l În „effect coding”, restricţionarea se referă la suma efectelor, care este constrânsă să fie zero. McCutcheon abordează pe larg complementaritatea celor două forme de 64 CORNELIA RADA 5 exprimare a modelului de clase latente, avantajele şi dezavantajele acestora (McCutcheon, 2002). Probabilităţile condiţionate din ecuaţia de parametrizare probabilistică pot fi calculate cu ajutorul parametrilor din forma log-lineară prin următoarea formulă: || |AXAAX AAX exp( ) / exp( )π= λ+λ λ+λ it i it i it ∑ i Prevalenţa în fiecare clasă latentă sau mărimea clusterului se determină printr-o formulă similară: XX X exp( ) / exp( ) π= λ λ tt t ∑ t Pentru modelul de referinţa ( H) cu o singură clasă T = 1, un model în care 0 patternul de răspuns este independent de apartenenţa la clustere, forma ecuaţiei se rezumă, evident, la: ABCD () Ln f=λ+λ+λ+λ+λ ijklt i j k l Numărul de parametri distincţi ai modelului, care corespund situaţiei în care T = 1, se calculează astfel: NPAR(indep) = (I – 1) + (J – 1) + (K – 1) + (L – 1). În cazul general în care avem T clase, numărul de parametri este calculat cu formula: NPAR(T) = (T – 1) + NPAR(indep) x , DF(T) este: iar numărul gradelor de libertate corespunzătoare modelului testat, DF(T) = IJKL – NPAR(T) – 1 Analiza în clase latente este, iniţial, un proces de identificare a celui mai the best fit). Aceasta înseamnă că trebuie, începând cu modelul „potrivit” model ( de referinţă H, să estimăm, incrementând T cu 1, câteva modele care conţin T = 1, 0 T = 2, T = 3, sau mai multe clase latente, până când modelul satisface un criteriu 2 ales de acceptare. Un astfel de criteriu poate fi statistica L (likelihood ratio chi- ), calculată pe baza frecvenţelor observate şi a celor estimate din squared statistic tabela de contingenţă multivariată: 2 2ln(/)ijkl ijkl ijklLFFf= ∑ ijkl F este frecvenţa observată, iar f reprezintă frecvenţa aşteptată Unde ijklijkl (calculată). 2 La un model perfect ( F = f) ar trebui ca Lsă fie egal cu 0. Măsura în care ijklijkl 2 Ldepăşeşte valoarea 0 indică cât de mult modelul nu se potriveşte cu datele observate, adică în ce măsură asocierea dintre variabile nu este explicată de 6 STRUCTURILE LATENTE ALE DISTANŢEI SOCIALE 65 2 2 modelul de segmentare în clase latente. Statistica L(uneori notat cu G), atunci 2 când volumul de date N este suficient de mare, are o distribuţie asimptotică χ şi astfel poate fi determinată probabilitatea p de acceptare a ipotezei alternative. 2 Regula practică utilizată pentru acceptare este ca L să nu fie substanţial mai mare decât numărul de grade de libertate ( DF), ceea ce corespunde la un p > 0,05. Ajustarea modelului la datele analizate, adică estimarea numărului de clase latente, se poate face şi pe baza unor criterii de ajustare similare cu cele utilizate în metodele de analiză clasice, cum sunt: Bayesian Information Criterion (BIC), Akaike Information Criterion (AIC), Akaike Information Criterion 3 (AIC3), şi Consistent Akaike Information Criterion (CAIC). Aceste criterii penalizează 2 valorile L, ţinând cont de numărul de parametri ai modelului, sau de volumul de date N din eşantion. De exemplu, BIC se calculează astfel: 2 BIC = L – DF ∗ Ln(N) Cea mai mică valoare a criteriului, obţinută la fiecare model analizat, indică the best fit). Totuşi, se modelul care se potriveşte cel mai bine la datele analizate ( ţine cont şi de faptul că modelul trebuie să fie cât mai simplu, adică cu cât mai puţini parametri estimaţi pentru a putea fi explicat şi înţeles practic. Din acest motiv, uneori, în practică se pot accepta şi modele pentru care p 0,05 să fie egali cu 0 (Tabelul nr. 2). Tabelul nr. 2 CFactor Loadings – Saturaţii CFactor 1 CFactor 2 Loadings Loadings 0,00 Dependenţi Dependenţi 0,57 Rasa 0,33 0,52 Rasa 0,30 Seropozitivi Seropozitivi 0,52 Imigranţi 0,34 0,46 Imigranţi 0,15 Homosexuali Homosexuali 0,58 Religie 0,14 0,52 Religie 0,00 Alcoolici Alcoolici 0,49 Necăsătoriţi 0,14 0,46 Necăsătoriţi Etnie 0,21 0,54 Etnie 0,23 Romi Romi 0,40 0,12 Condamnaţi Condamnaţi 0,52 Astfel, şase variabile, Dependenţi, Seropozitivi, Homosexuali, Alcoolici, Romi şi Condamnaţi, au saturaţii mai mare sau egală cu 0,400 pe CFactor 1 iar celelalte cinci variabile: Rasa, Imigranţi, Religie, Necăsătoriţi şi Etnie corelează mai puternic cu CFactor 2. Acest model statistic sugerează faptul că distanţa socială poate fi explicată prin două componente care separă cele două subseturi de variabile, după cum urmează. 70 CORNELIA RADA 11 Prima componentă, care include subsetul de variabile observate: Dependenţi, Seropozitivi, Homosexuali, Alcoolici, Romi şi Condamnaţi, identifică diferenţierea prin raportul individului cu valori sociale cum ar fi legea şi ordinea în comunitate. Reprezintă o distanţare faţă de persoanele care au suferit condamnări penale, faţă de romi, care în general sunt percepuţi ca având probleme cu legea şi ordinea, faţă de homosexualitate, care cândva era condamnată de lege. De asemenea, consumul de droguri, care este adesea asociat cu infectarea HIV şi homosexualitatea, este în opoziţie cu legea. Dependenţii de alcool sunt şi ei percepuţi ca aducători de dezordine şi scandal în societate. A doua componentă, care include subsetul de variabile observate: Rasa, Imigranţi, Religie, Necăsătoriţi şi Etnie reprezintă distanţarea pentru conservarea intimităţii culturale şi confesionale. Persoanele necăsătorite care trăiesc împreună sunt asociate acestei componente, deoarece sunt în opoziţie cu valoarea socială şi morală a căsătoriei ca act legal şi religios. Analiza de clusteri în clase latente Pentru primul subset, am selectat aceleaşi şase variabile ca la analiza precedentă, şi anume: Dependenţi (Persoane dependente de droguri), Seropozitivi (Persoane care au SIDA), Homosexuali, Alcoolici, Romi şi Condamnaţi (Persoane care au suferit condamnări penale). În primă fază de explorare am cerut, în Latent Gold, să fie evaluate toate modelele de la un cluster pană la şapte clusteri. Performanţele modelelor analizate, 2 criteriile de evaluare sunt prezentate în Tabelul nr. 3. În conformitate cu criteriul L , modelul cu cinci clusteri reprezintă modelul optim (the best fit), deoarece 2 este apropiată de numărul gradelor p = 0,37 > 0,05 şi putem observa că valoarea lui L 2 de libertate (L = 30,80 iar df = 29). Valorile criteriilor informaţionale BIC (13393,45) şi CAIC (13420,45) sunt minime pentru modelul cu patru clusteri. AIC (13226,30) este minim pentru modelul cu cinci clusteri. Eroarea de clasificare pentru modelul cu patru clusteri este 0,1953. Din motive practice vom face un compromis şi vom alege modelul 2 cu patru clusteri, deşi p = 0,0045 2) între variabilele Dependenţi şi Romi (6,2198) şi respectiv între Dependenţi şi Condamnaţi (2,4501). Din acest motiv vom adopta o strategie recomandată pentru Latent Gold, care constă în introducerea în model a efectului direct de interacţiune între variabilele Dependenţi şi Romi. Tabelul nr. 4 Valorile rezidualelor bivariate pentru modelul cu patru clusteri Indicatori Dependenţi Seropozitivi Homosexuali Alcoolici Romi Dependenţi . Seropozitivi 0,1002 . Homosexuali 0,0087 0,0308 . Alcoolici 0,4283 0,0403 0,0948 . Romi 0,3533 0,2082 0,0159 . 6,2198 Condamnaţi 0,0012 1,1071 0,5124 1,5052 2,4501 2 În noul model obţinut (patru Cluster + Efect direct) L = 47,10 şi p = 0,083 > 0,05, iar valorile BIC, AIC şi CAIC sunt mai mici decât la modelul cu patru Clusteri fără efecte directe ceea ce indică o ameliorare a modelului. De asemenea se observă scăderea erorii de clasificare la 0,1833. Indexul de disimilaritate este 0,0448 0,05, să fie constrânşi la valoarea 0. Suma coeficienţilor pe verticală (pentru toate categoriile fiecărei variabile-indicator) este, de asemenea, 0. 72 CORNELIA RADA 13 Tabelul nr. 6 Parametrii modelului – efectele principale Variabile şi categorii Intercepts Wald p-value Dependenţi Nemenţionat –0,826 44,884 0,000 Menţionat 0,826 Seropozitivi Nemenţionat 0,210 0,529 0,47 Menţionat –0,210 Homosexuali Nemenţionat –0,231 7,247 0,0071 Menţionat 0,231 Alcoolici Nemenţionat –0,310 9,041 0,0026 Menţionat 0,310 Romi Nemenţionat –0,135 2,426 0,12 Menţionat 0,135 Condamnaţi Nemenţionat 0,113 2,278 0,13 Menţionat –0,113 În Tabelul nr. 7 sunt prezentate profilele în clustere. Pe primul rând avem dimensiunea fiecărui cluster. De exemplu, clusterul 1 cuprinde 37,7% din eşantion iar clusterul 4 este cel mai puţin populat, cu 14,0% din eşantion. Pentru fiecare variabilă şi fiecare cluster, în tabel sunt indicate probabilităţile ca subiectul să răspundă cu menţionat sau nemenţionat. Suma probabilităţilor pe verticală pentru fiecare variabilă-indicator este egală cu 1. Pentru o mai uşoară şi rapidă înţelegere, în Latent Gold profilele sunt reprezentate şi grafic, alături de prezentarea tabelară. Se identifică, astfel, două profile total opuse: clusterul 2, care include 32,4% din subiecţi şi clusterul 4, care cuprinde 14% din eşantion. Clusterul 2 poate fi clasificat ca intolerant, deoarece probabilităţile de a menţiona ca indezirabili pentru toate categoriile de vecini menţionaţi în chestionar sunt mari, între 0,797 (seropozitivi) şi 0,986 (dependenţi). Clusterul 4 poate fi definit tolerant, probabilitatea de menţionare ca vecin indezirabil aici fiind scăzută: între 0,056 (condamnaţi) şi 0,156 (dependenţi). Clusterele 1 şi 3 sunt mai nuanţate în privinţa vecinilor. În clusterul 1 există o toleranţă specială pentru seropozitivi, care sunt menţionaţi ca nedoriţi cu o probabilitate de numai 0,078. Este un cluster tolerant HIV, dar care respinge ca vecini persoanele dependente de droguri (0,734) sau alcool (0,775). De asemenea, clusterul 1 este destul de permisiv cu vecinii romi sau care au suferit condamnări. Clusterul 3, care include 15,8% din subiecţi este mai tolerant cu romii, probabilitatea de respingere a acestora ca vecini fiind de 0,365. Ei sunt, de asemenea, relativ toleranţi cu cei care au suferit condamnări, probabilitatea fiind de 0,494). Este un cluster tolerant cu romii, dar care se distanţează destul de categoric de dependenţii de droguri, de seropozitivi şi de homosexuali. 14 STRUCTURILE LATENTE ALE DISTANŢEI SOCIALE 73 Tabelul nr. 7 Profilul clusterilor – variabile-manifest Cluster 1 Cluster 2 Cluster 3 Cluster 4 Mărime clusteri 0,377 0,324 0,158 0,140 Dependenţi Nemenţionat 0,266 0,014 0,154 0,844 Menţionat 0,734 0,846 0,986 0,156 Seropozitivi Nemenţionat 0,922 0,203 0,104 0,939 Menţionat 0,078 0,896 0,061 0,797 Homosexuali Nemenţionat 0,486 0,044 0,232 0,923 Menţionat 0,514 0,956 0,768 0,077 Alcoolici Nemenţionat 0,225 0,043 0,464 0,883 Menţionat 0,775 0,958 0,536 0,117 Romi Nemenţionat 0,550 0,144 0,635 0,855 Menţionat 0,450 0,856 0,365 0,145 Condamnaţi Nemenţionat 0,533 0,112 0,506 0,944 Menţionat 0,467 0,888 0,494 0,056 Diferenţele de profile dintre cele patru clustere sunt prezentate grafic în Figura 1. Pe axa verticală a graficului, în acest caz, sunt reprezentate probabilităţile de a menţiona ca nedorită o persoană din categoria reprezentată pe axa orizontală. Figura 1 Profilele clusterilor 1 Cluster1 Cluster2 0.9 Cluster3 0.8 Cluster4 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Droguri Seropozitivi Homosexuali Alcolici Romi Condamnaţi 74 CORNELIA RADA 15 Introducerea în model a covariatelor (Tabelul nr. 8) genul, educaţia (nivelul de instruire) şi mediul (mediul de rezidenţă) permite explicaţii privind structura sociodemografică din clusteri. Tabelul nr. 8 Distribuţia marginală a variabilelor covariate în eşantion Variabila covariate Categoria Proporţia % Masculin 49,7 Genul – Sexul respondentului Feminin 50,3 Scăzut 46,7 Educaţia – Nivel de instruire Mediu 40,7 Ridicat 12,6 Urban 57,3 Mediul – Mediul de rezidenţă Rural 42,7 Se poate observa, din Tabelul nr. 9, că femeile sunt preponderente în clusterele 1 şi 2, unde probabilitatea ca sexul subiectului să fie feminin este de 0,556 şi respectiv de 0,582, comparativ cu proporţia generală din eşantion, de 50,3%. Femeile sunt preponderente în clusterul 2 (0,582), deci pot fi considerate mai distante faţă de categoriile propuse ca vecini. Totuşi preponderenţa acestora în clusterul 1 ne arată că acceptă mai uşor vecini infectaţi cu HIV. Bărbaţii sunt preponderenţi în clusterele 3 şi 4 şi putem trage concluzia că, în general, bărbaţii sunt mai toleranţi. Tabelul nr. 9 Profilul clusterilor – covariate Covariate Cluster 1 Cluster 2 Cluster 3 Cluster 4 HIV tolerant Intolerant Etnic tolerant Tolerant Genul Masculin 0,444 0,418 0,683 0,581 Feminin 0,556 0,582 0,317 0,419 Educaţia Scăzut 0,282 0,529 0,657 0,481 Mediu 0,470 0,405 0,309 0,430 Ridicat 0,248 0,066 0,034 0,089 Mediul Urban 0,739 0,477 0,433 0,547 Rural 0,261 0,523 0,567 0,453 Toleranţa la vecinii infectaţi cu HIV este mult mai mare în urban (0,739). În mediul rural, populaţia este în general mai intolerantă (0,523, în clusterul 2), dar este mai tolerantă cu romii (0,567, în clusterul 3), comparativ cu mediul urban, ţinând cont că, la nivelul eşantionului, mediul rural are o pondere de 42,7%. Nivelul de educaţie nu explică cum se formează clusterii decât în măsura în care persoanele cu un nivel de educaţie ridicat au o probabilitate mai mare de 16 STRUCTURILE LATENTE ALE DISTANŢEI SOCIALE 75 apartenenţă la clusterul HIV tolerant. Acest cluster este, totuşi, în acelaşi timp, un cluster distant faţă de persoanele dependente de droguri sau alcool. Pentru al doilea subset s-au selectat cinci variabile: Rasa (persoane de rasă diferită), Imigranţi (imigranţi sau muncitori din altă ţară), Religie (persoane având o religie diferită), Necăsătoriţi (cupluri necăsătorite care trăiesc împreună) şi Etnie (oameni de altă etnie). Analiza exploratorie a modelelor de unul până la cinci clusteri indică faptul că un minim pentru criteriile BIC şi CAIC se obţine pentru modelul cu trei clusteri 2 (Tabelul nr. 10), la care corespunde o statistică L = 40,8094 şi respectiv p = 2 0,0002 0,05). patru clusteri (L Tabelul nr. 10 Criterii de evaluare a modelului optim (the best fit) Eroarea de Modelul BIC(LL) AIC(LL)CAIC(LL) Npar L² df p-value clasificare 1-Cluster 7999,97 7972,21 8004,97 5 1861,345 26 0,0000 0,0000 2-Cluster 6375,04 6313,97 6386,04 11 191,101 20 0,0000 0,0321 3-Cluster 6175,6717 40,809 14 0,0002 0,1009 6270,06 6287,06 4-Cluster 6285,45 6308,45 23 0,0877 6157,7610,894 8 0,2100 5-Cluster 6322,45 6161,44 6351,45 29 2,578 2 0,2800 0,1211 6256,02 6156,09 6274,02 18 19,2308 13 0,1200 0,1099 3-Cluster + Efect Direct Spre a avea mai multă simplitate, am optat pentru modelul cu trei clusteri, în care am introdus pentru respectarea ipotezei de independenţă locală un efect direct al interacţiunii dintre variabilele Rasa şi Imigranţi. Performanţele noului model obţinut ( 3-Cluster + Efect Direct ) sunt mai bune decât ale modelului cu numai trei 2 clusteri: L = 19,2308 şi p = 0,12 > 0,05, iar valorile BIC, AIC şi CAIC sunt mai mici. Dissimilarity Index este 0,0153, destul de apropiat de 0. În Tabelul nr. 11 sunt prezentate profilele în clustere. Pe primul rând sunt indicate dimensiunea fiecărui cluster. De exemplu, clusterul 1 cuprinde 70,98% din eşantion, clusterul 2 cuprinde 22,24%, iar clusterul 3 este cel mai puţin populat, cu 6,78% din eşantion. Pentru fiecare variabilă în tabel sunt indicate probabilităţile ca subiectul să răspundă la o categorie sau alta, respectiv 0 = Nemenţionat şi 1 = Menţionat. Suma probabilităţilor pe verticală pentru fiecare variabilă-indicator este egală cu 1. Clusterul 1 este caracterizat de un grad de apropiere socială ridicat. Probabilităţile de a menţiona ca vecin nedorit o persoană din cele cinci categorii sunt scăzute, între 0,0005, pentru Etnie şi 0,0618, pentru Imigranţi. La polul opus clusterul 3 este caracterizat de un grad ridicat de distanţare socială. Probabilităţile de a menţiona ca vecin nedorit o persoană din cele cinci categorii sunt ridicate, între 0,7759 pentru Necăsătoriţi şi 0,9946, pentru Etnie. În clusterul 2, atitudinea subiecţilor este uşor rezervată, probabilitatea maximă de respingere fiind de 0,3927 pentru vecinii de altă rasă. 76 CORNELIA RADA 17 Tabelul nr. 11 Profilul clusterilor – variabile-manifest Cluster 1 Cluster 2 Cluster 3 Mărime clusteri 0,7098 0,2224 0,0678 Variabile Rasa Nemenţionat 0,9605 0,6073 0,0337 Menţionat 0,0395 0,3927 0,9663 Imigranţi Nemenţionat 0,9382 0,6513 0,0690 Menţionat 0,0618 0,3487 0,9310 Religie Nemenţionat 0,9882 0,7682 0,0583 Menţionat 0,0118 0,2318 0,9417 Necăsătoriţi Nemenţionat 0,9792 0,7403 0,2241 Menţionat 0,0208 0,2597 0,7759 Etnie Nemenţionat 0,9995 0,7161 0,0054 Menţionat 0,0005 0,2839 0,9946 Profilele din fiecare cluster sunt prezentate grafic în Figura 2. Se observă că separarea profilelor este evidentă, fără intersectări. Pe axa verticală din grafic este indicată probabilitatea de a menţiona ca vecin nedorit o persoană cu atributul variabilei-manifest de pe axa orizontală. Figura 2 Profilele clusterilor 1,00 0,90 0,80 0,70 0,60 Cluster1 Cluster2 0,50 Cluster3 0,40 0,30 0,20 0,10 0,00 Rasa Im igranţi Religie Necăsătoriţi Etnie În Latent Gold sunt prezentate şi probabilităţile condiţionate de apartenenţă la un anumit cluster, dacă răspunsul este dat pentru o anumită categorie (Tabelul nr. 12). Pe 18 STRUCTURILE LATENTE ALE DISTANŢEI SOCIALE 77 fiecare rând, suma probabilităţilor este 1. Astfel, de exemplu, probabilitatea ca un subiect să aparţină la clusterul 3, dacă a menţionat imigranţii ca o categorie nedorită de vecini, este de 0,3426. Dacă nu a făcut această menţiune, probabilitatea este de 0,0056. Tabelul nr. 12 Probabilităţile de apartenenţă la clusteri (ProbMeans) Variabila Cluster 1 Cluster 2 Cluster 3 Rasa Nemenţionat 0,8325 0,1649 0,0026 Menţionat 0,1546 0,4826 0,3628 Imigranţi Nemenţionat 0,8168 0,1776 0,0056 Menţionat 0,2374 0,4200 0,3426 Religie Nemenţionat 0,8007 0,1950 0,0043 Menţionat 0,0672 0,4163 0,5165 Necăsătoriţi Nemenţionat 0,7946 0,1882 0,0172 Menţionat 0,1178 0,4612 0,4209 Etnie Nemenţionat 0,8165 0,1833 0,0002 Menţionat 0,0027 0,4817 0,5156 În Latent Gold, rezultatele asociate cu probabilităţile de apartenenţă sunt prezentate şi sub formă grafică, în mod specific modelului de clase latente ales. Modul de prezentare şi indicaţiile privind interpretarea grafică sunt detaliate în (Magidson şi Vermunt, 2001) sau (Van der Ark şi Van der Heijden, 1998). Tabelul nr. 13 Profilul clusterilor – covariate Covariate Cluster 1 Cluster 2 Cluster 3 Apropiat Rezervat Distant Genul Masculin 0,502 0,501 0,442 Feminin 0,498 0,499 0,558 Educaţie Scăzut 0,431 0,499 0,548 Mediu 0,422 0,402 0,397 Ridicat 0,148 0,099 0,055 Mediul Urban 0,605 0,513 0,475 Rural 0,395 0,487 0,525 Ca şi în subsetul anterior analizat, introducerea în model a covariatelor gen (masculin sau feminin), educaţie (nivelul de instruire) şi mediu (mediul de rezidenţă) 78 CORNELIA RADA 19 ne permite să explicăm structura sociodemogafică din clustere. Pentru analiză, trebuie să comparăm distribuţia marginală a variabilelor covariate din Tabelul nr. 7 cu distribuţia corespunzătoare din interiorul clusterelor (Tabelul nr. 13). Diferenţele semnificative de distribuţii indică specificul clusterului. Remarcăm şi în acest caz că în clusterul 3 Distant femeile sunt preponderente (0,558). În clusterele 1, 2 respectiv Apropiat şi Rezervat bărbaţii şi femeile sunt aproximativ egal reprezentate. În clusterul Distant predomină subiecţii din mediul rural (0,525), iar în clusterele Apropiat şi Rezervat sunt preponderente persoanele din mediul urban. Clusterul Distant este mai populat de subiecţi cu nivel de educaţie scăzut (0,548), în timp ce în clusterul Apropiat educaţia respectă distribuţia marginală din eşantion. CONCLUZII ŞI DISCUŢII Primele trei categorii de persoane nedorite ca vecini au fost: persoanele dependente de droguri, alcoolicii şi homosexualii. Cele mai acceptabile trei categorii de persoane ca vecini au fost: persoanele având religie diferită, cuplurile necăsătorite care trăiesc împreună, oamenii de altă etnie. Analiza factorială preliminară în clase latente a identificat două componente. Prima componentă, care include subsetul de variabile observate: Dependenţi, Seropozitivi, Homosexuali, Alcoolici, Romi şi Condamnaţi, identifică diferenţierea prin raportul individului cu valori sociale cum ar fi legea şi ordinea în comunitate. A doua componentă, care include subsetul de variabilele observate: Rasa, Imigranţi, Religie, Necăsătoriţi şi Etnie reprezintă distanţarea pentru conservarea intimităţii culturale şi confesionale. Analiza de clusteri în clase latente pentru prima componentă (set de variabile), identifică patru clusteri-profile: clusterul 2, intolerant, (probabilităţi mari de a menţiona indezirabili toate categoriile de vecini menţionaţi) şi clusterul 4, definit tolerant, (probabilităţi mici de a-i menţiona indezirabili). Clusterul 1 este tolerant HIV, dar respinge ca vecini persoanele dependente de droguri. Clusterul 3 este tolerant cu Romii, dar se distanţează destul de categoric de dependenţii de droguri, de seropozitivi şi de homosexuali. În clusterul intolerant predomină femeile, persoanele din mediul rural. Totuşi, femeile acceptă mai uşor vecini infectaţi cu HIV, iar persoanele din mediul rural sunt mai tolerante cu romii. În clusterul tolerant şi tolerant cu romii predomină bărbaţii. În urban, toleranţa la vecinii infectaţi cu HIV este mult mai mare. Persoanele cu un nivel de educaţie ridicat sunt cu precădere în clusterul HIV tolerant, dar distante faţă de persoanele dependente de droguri sau alcool. Pentru al doilea subset (variabilele): Rasa (persoane de rasă diferită), Imigranţi (imigranţi sau muncitori din altă ţară), Religie (persoane având o religie diferită), Necăsătoriţi (cupluri necăsătorite care trăiesc împreună) şi Etnie (oameni 20 STRUCTURILE LATENTE ALE DISTANŢEI SOCIALE 79 de altă etnie) s-au conturat trei clusteri-profile: clusterul 1 Apropiat (grad de apropiere socială ridicat), clusterul 3 Distant (grad ridicat de distanţare socială) şi clusterul 2 Rezervat (grad mediu de distanţare socială). În clusterul Distant predomină femeile, persoanele din mediul rural şi cu nivel instructiv-educativ scăzut. În clusterele Apropiat şi Rezervat, proporţia femeilor şi a bărbaţilor este relativ egală şi predomină persoanele din mediul urban. Am abordat aspectele legate de structurile latente ale distanţei sociale, ca atitudine faţă de vecini, dintr-o perspectivă bivalentă, considerând variabilele latente atât în spaţiu continuu cât şi discret multidimensional. Toţi cei 11 itemi au fost iniţial analizaţi în spaţiul bidimensional continuu şi apoi fiecare dimensiune, separat, a fost analizată în clase latente discrete. Dualitatea „caracteristică (trait) – clasă” este benefică în cercetare, deoarece permite o interpretare complementară, aşa cum sociologia poate fi completată interesant prin perspectiva psihologiei. Analiza factorială în factori discreţi (DFactor) în programul Latent Gold, în care se introduc cei 11 itemi analizaţi anterior prin factori de tip continuu (CFactor) ne conduce la un rezultat oarecum similar cu cel din analiza factorială în spectru continuu (Tabelul nr. 14). Sunt, totuşi, două excepţii importante, şi anume, variabilele Seropozitivi şi Romi, care sunt în această analiză aproximativ la fel reprezentaţi pe ambii factori discreţi, saturaţiile (loadings) fiind aproximativ egale ca intensitate. Trebuie însă să remarcăm că, din punctul de vedere al criteriilor informaţionale BIC, AIC şi CAIC, modelul în factori tip continuu este un model mai bun decât modelul în factori discreţi. Tabelul nr. 14 DFactor Loadings – Saturaţii Loadings DFactor 1 DFactor 2 Loadings Dependenţi 0,138 –0,551 Dependenţi –0,087 Rasa Rasa 0,717 Seropozitivi 0,375 –0,370 Seropozitivi –0,125 Imigranţi Imigranţi 0,628 Homosexuali 0,215 –0,537 Homosexuali 0,042 Religie Religie 0,607 Alcoolici 0,134 –0,475 Alcoolici 0,022 Necăsătoriţi Necăsătoriţi 0,522 –0,014 Etnie Etnie 0,673 Romi 0,286 –0,293 Romi Condamnaţi 0,254 –0,451 Condamnaţi Analiza în clase latente, în formele ei de bază sau avansate, este un instrument deosebit de util în cercetare. Această metodă aduce cu sine beneficiile analizelor tradiţionale, permise numai pentru datele de tip continuu, în domenii ale cercetării care operează, de regulă, cu date discrete. În ciuda faptului că în ultimii ani au apărut programe statistice specializate, cu interfeţe utilizator prietenoase, care le fac utilizabile chiar în practica de rutină a cercetării sociologice, analiza 80 CORNELIA RADA 21 claselor latente încă nu este considerată ca o alternativă viabilă la tehnicile clasice de analiză, nici măcar în situaţii când o asemenea metodă, teoretic, ar putea fi mult mai potrivită sau chiar este singura aplicabilă. Statisticieni precum Goodman (2002) au atras atenţia asupra faptului că şi într-un context mai simplu, cum ar fi cel al unei tabele de contingenţă de 2 × 2, pentru, să zicem, variabilele dihotomice A şi B, aproape toate măsurătorile pe care 2 ) indică doar cantitatea de le facem (de exemplu, cunoscutul Pearson χ neindependenţă dintre acestea. Nu putem însă cunoaşte cu certitudine dacă relaţia măsurată dintre acestea este una autentică, sau dacă, de fapt, am măsurat simultan relaţiile celor două variabile cu o a treia, care există şi pe care, atunci când nu este observată direct, o numim latentă. În cercetarea asistată de instrumentele statisticii trebuie avut în vedere că lucrurile nu sunt întotdeauna ce par a fi. Paradoxul Simpson este un exemplu elocvent în acest sens. Analiza de clase latente, ca oricare altă metodă statistică, este o încercare de apropiere către mijlocul unui adevăr presupus. Poate din acest motiv în cartea lor de referinţă Latent Structure Analysis, Paul F. Lazarsfeld and Neil W. Henry au apelat la un încântător şi inspirat citat din poemul The Secret Sits scris de Robert Frost: „Dansăm rotund într-un inel şi presupunem, 3 . dar Secretul stă în mijloc şi cunoaşte” Pe lângă produsul Latent Gold pe care l-am prezentat, aflat în continuă dezvoltare, în prezent mai există câteva produse software care pot fi de interes pentru cercetătorii interesaţi de analiza structurilor latente. LEM este un program gratuit realizat de Jeroen Vermunt, mai puţin complex şi cu o interfaţă utilizator mai puţin ,,prietenoasă”. WINMIRA 2001 este un produs specializat în clase latente şi modele sau mixturi Rasch, cu o interfaţă uşor de utilizat, compatibil SPSS pentru date şi care produce prezentări grafice color. Are, de asemenea, posibilitatea de bootstrap pentru mărirea acurateţei rezultatelor. Mplus, un program disponibil pe http://www.statmodel.com, este destinat modelării cu variabile latente atât discrecte cât şi de tip continuu. BIBLIOGRAFIE 1. Abraham, D., Bădescu, I., Chelcea, S., Interethnic Relations in Romania, Cluj-Napoca, Editura Carpatica, 1995. 2. Agresti, A., Categorical data analysis, New York, Wiley, 1990. 3. Bogardus, E.S.A, Social Distance Scale, în “Sociology and Social Research”, nr. 1, 1925. 4. Chelcea, S., Atitudinile etnice ale românilor, în S. Chelcea, Personalitate şi societate în tranziţie, Bucureşti, Editura Ştiinţă şi Tehnică S.A., 1994, pp. 227–240. 3 „We dance round in a ring and suppose, but the Secret sits in the middle and knows”. 22 STRUCTURILE LATENTE ALE DISTANŢEI SOCIALE 81 5. Clogg, C.C., Latent Class Models, în Arminger, G., Clogg, C.C., Sobel, M.E. (eds.), Handbook of Statistical Modeling for the Social and Behavioral Sciences, New York, Plenum, 1995, pp. 311–359. 6. Dayton, C.M., Latent Class Scaling Analysis, Sage University Papers Series, Quantitative Applications in the Social Sciences, series no. 07–126, Thousand Oaks, CA: Sage, 1998. 7. Dayton, C.M., Macready, G.B., Use of categorical and continuous covariates in latent class analysis, în Hagenaars, J.A., McCutcheon, A.L., (eds.), Applied Latent Class Analysis, Cambridge, UK, Cambridge University, 2002, pp. 213–233. 8. Formann, A.K., Kohlmann, T., Latent class analysis in medical research, în “Statistical Methods in Medical Research”, Vol. 5, No. 2, 1996, pp. 179–211. 9. Galindo-Garre, F., Vermunt, J.K., Testing log-linear Models with inequality constraints: A comparison of asymptotic, bootstrap, and posterior predictive p values, în “Statistica Neerlandica”, Vol. 59, No. 1, 2005, pp. 82–94. 10. Goodman, L.A., Latent Class Analysis. The Empirical Study of Latent Types, Latent Variables, and Latent Structures, în Hagenaars, J.A., McCutcheon, A.L. (eds.), Applied Latent Class Analysis, Cambridge, Cambridge University, 2002, pp. 3–55. 11. Henry, W. Neil, Latent Structure Analysis at Fifty, paper presented at the “1999 Joint Statistical Meetings”, Baltimore, August 11, 1999. 12. Lazarsfeld, F.P., Henry, W.N., Latent Structure Analysis, Boston, Houghton Mifflin, 1968. 13. Magidson, J., Vermunt, J.K., Comparing latent class factor analysis with the traditional approach in data mining, în Bozdogan, H. (ed.), Statistical Data Mining and Knowledge Discovery, Boca Raton, Chapman & Hall/CRC, 2003, pp. 373–383. 14. Magidson, J., Vermunt, J.K., Latent class factor and cluster models, bi-plots and related graphical displays, în “Sociological Methodology”, Vol. 31, 2001, pp. 223–264. 15. Mihăilescu, I., în Zamfir, C., Vlăsceanu, L., (coord.), Dicţionar de sociologie românească, Bucureşti, Editura Babel, 1998, p. 177. 16. Herseni, T., Sociologia distanţei, în ,,Societatea de mâine”, an VIII, nr. 3–4, 1931, p. 77. 17. Herseni, T., Sociologia vecinătăţii, în ,,Societatea de mâine”, an VIII, nr. 6–7, 1931, p. 141. 18. Herseni, T., Sociologia spaţiului, în ,,Societatea de mâine”, an VIII, nr. 5, 1931, p. 114. 19. Herseni, T., Alte distanţe sociale, în ,,Societatea de mâine”, an VIII, nr.16–17, 1931, p. 314. 20. Magidson J., Vermunt J.K, Latent class models, în Kaplan, D. (ed.), The SAGE Handbook of Quantitative Methodology for the Social Sciences, Thousand Oakcs, Sage Publications, chapter 10, 2004, pp. 175–198. 21. Stăvărache, Fl., Traian Herseni. Câteva consideraţii asupra distanţei sociale, în ,,Studii şi cercetări din domeniul ştiinţelor socioumane”, Cluj Napoca, vol. 10, 2002. 22. Van der Ark, L.A., Van der Heijden, P.G.M., Graphical display of latent budget and latent class analysis, în Blasius J., Greenacre, M. (eds.), Visualization of categorical data, Boston, Academic Press, 1998, pp. 489–509. 23. Vermunt, J.K., Magidson, J., Factor Analysis with categorical indicators: A comparison between traditional and latent class approaches, în Van der Ark, A., Croon, M.A., Sijtsma, K., (eds.), New Developments in Categorical Data Analysis for the Social and Behavioral Sciences, Mahwah, Erlbaum, 2005, pp. 41–62. 24. Vermunt, J.K., Magidson, J., Latent GOLD 4.0 and IRT modeling, 2006, disponibil online la http://www.statisticalinnovations.com/products/LGIRT.pdf. 25. Vermunt, J.K., Magidson, J., Latent GOLD 4.0 User's Guide, Belmont, Massachusetts, Statistical Innovations Inc., 2005, disponibil online la http://www.statisticalinnovations.com. 26. Vermunt, J.K., Magidson, J., Technical Guide for Latent GOLD 4.0: Basic and Advanced, Belmont Massachusetts, Statistical Innovations Inc., 2005, disponibil online la http://www.statisticalinnovations.com. 27. Vlăsceanu, L., în Zamfir, C., Vlăsceanu, L., (coord.), Dicţionar de sociologie românească, Bucureşti, Editura Babel, 1998, pp. 177–178. 28. *** Barometrul de Opinie Publică, Fundaţia Soroş România, 2007, disponibil online la http://www.osf.ro/ro/program_articol.php?articol=107. 82 CORNELIA RADA 23 he goal of this paper is to bring solid arguments for the latent class analysis use as a research tool in the social and T behaviour sciences. I started with a technical presentation of the latent class analysis method, limited to what is strictly necessary for the basic understanding and subsequently, continuing with a practical research example. Using the Latent Gold software aimed to identify patterns of the social distance expressed by the whish not to have as neighbours 11 socially stigmatized person categories as drug addicts, immigrants, Roma people, ex convicts, etc. The analyzed data have been provided by Soros Foundation Romania and are part of the Public Opinion Barometer, October 2007. The initial 11 items set was split up into two subsets, using a special form of factorial analysis technique with continuous latent components, which have been later explored using latent classes cluster analysis. For the first variables subset, a four latent classes model was identified as the best fit and for the second variables subset, a three latent classes model was identified as the bets fit. In the intolerant and distant clusters prevail women and people from rural areas. However, the women are more likely to accept HIV infected neighbors and the people from rural areas are more tolerant with Roma people. In the tolerant and tolerant with Roma people, the men prevail. In the urban areas, the tolerance for HIV infected neighbors is higher. The people with high educational level are predominant in the cluster HIV-tolerant, but they are distant in respect to drugs or alcohol addicted people. Keywords: latent classes, factorial analysis, social distance. Primit: 20. 06. 2010 Acceptat: 14. 12. 2010 Redactor: Ioan Mărginean